查看原文
其他

张江“小巨人”|达观数据:NLP+RPA+OCR=?

豆包 你好张江 2022-08-30


近日,随着工信部公示了第三批国家级专精特新“小巨人”企业名单,全国已有近5000家中小企业上榜,其中超300家企业在A股上市。根据工信部的定义,专精特新“小巨人”企业是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。在张江,也有这样一批企业入选各级专精特新“小巨人”名单,他们极具创新活力,深耕各自领域,努力攻坚克难,解决“卡脖子”问题,最终实现创新升级。“你好张江”带您走近张江的这些专精特新“小巨人”。



🔗

专精特新





达观数据




通过自动化、智能化技术,RPA(Robotic Process Automation,机器人流程自动化)可以帮助人们完成重复性、低价值、无需人工决策等固定性流程化操作,从而有效提升工作效率,减少错误。


“我们成立于2015年,彼时国内RPA概念还没大规模兴起,但我们很明确地意识到,文本智能化处理、RPA是促进企业数字化转型的必然趋势。”达观数据CEO陈运文说。凭借在智能办公机器人应用领域的技术领先优势,达观数据被工信部认定为第三批国家级专精特新“小巨人”企业。



📝


专:打造首款国产自研三位一体智能化机器人


当前,国内人口红利逐渐式微,RPA等人工智能产品登上历史舞台。早在2001年,就有用户采用RPA相关的技术,在游戏中开发出自动化操作的机器人“按键精灵”,通过“按键精灵”进行屏幕抓取和流程自动化,但这也局限于C端。而RPA在美国、英国、日本等国家日益被重视,企业和相关部门通过RPA去实现财务、行政、采购等领域的自动化需求。



2015年,RPA概念被引进国内,达观数据也在这一年成立。在随后的两年内,RPA越来越广为人知。近三年来,中国RPA公司如雨后春笋般崛起,在收获市场认可的同时,也与国外RPA公司展开了激烈角逐。


在深挖RPA这一赛道的过程中,达观数据发现,传统的RPA有着不容忽视的短板:


  • 一是只能在限定条件下,即有明确、固定的流程和步骤,才能发挥作用;


  • 二是不能处理非结构化数据等较复杂的对象,也无法达成线上、线下的融合,传统RPA只能通过模拟鼠标、键盘的操作,完成对线上工作的处理,对于非结构化的数据,则需要人工干预。



而人工智能的快速发展,则为传统RPA带来了无限可能。CV(计算机视觉)与NLP(自然语言理解)的深度融合以及图像矫正模型、文字检测模型、文字识别模型和语义修正模型等多种前沿技术,极大地提升OCR(光学字符识别)的准确率。


如果把传统的RPA产品比喻成人的“双手”,OCR和NLP则相当于人的“眼睛”“大脑”,有了两者加持的RPA机器人能够处理的场景和能力大大提升,不仅仅能帮助用户解决代填、数据迁移之类的业务,还能够通过OCR和NLP处理大量的纸质文档和对文档进行分析研判。



2019年,达观数据正式推出“达观智能RPA”,融合自研语义理解模块,打造了首款国产自研“NLP+OCR+RPA”三位一体的智能化机器人,这也是市场上唯一不采用微软底层开发框架、完全独立自主研发的机器人。



📝


精:深刻了解国内市场,深入布局


不容忽视的是,AI给RPA企业带来机遇的同时,也带来的不小的挑战——


企业要思考的是,如何在用AI赋能RPA的同时不断突破多个场景的落地应用。这需要RPA企业对中国市场有独特需求的理解力以及拿出解决方案的能力。


以证券行业为例,投资基金合同、债券募集书、法律文书等众多类型专业文档,专业性强,内含大量职业判断,涉及审核规则繁杂,不同业务的审核标准各有差异且更新频繁,细则项通过人为判断易出错。


此外,在证券行业的日常业务中,大量基础数据被积累下来,但“信息孤岛”却加大了资料搜集的成本,传统的人工方处理耗时耗力,加之监管机构对客户信息、产品设计、扰乱市场的交易监控要求不断提高,这些都给证券人员带来不小的挑战。



因此,在业务日渐趋于同质化的同时,如何打造强力稳健的运营支撑成为各证券机构开始思考的新增长点。作为人工智能的落地载体,融合AI技术并能够连接多方系统的RPA可以打通数据识别、录入、统计、分析的全流程,也成为了证券行业的最优选择。


“其实,行业痛点就在那里,无非是你发现早晚的问题,发现以后,你又能提供怎样的解决方案?在落地应用过程中,产品操作准不准?准确率多少?是否容易出现意外?这些都决定着产品的价值。”陈运文说。


有这样一串数字可以解释为什么达观数据得到广发证券、招商证券、深交所、东海证券、国有四大行以及7家股份制银行(全国总共12家)的青睐:1000+金融场景算法模型,50T数据存储量,250亿文档预览,900万+知识图谱关联节点,99.9%+图像字符识别准确率,97%+结构化抽取准确率。


资产报表解析


“除了证券领域,我们还覆盖了制造、通信、法律、审计、媒体、银行、政府等领域。”陈运文介绍,依靠图像识别OCR、语义挖掘、文档智能审阅、机器人流程自动化RPA、企业级搜索、个性化推荐、知识图谱等七大核心场景的关键技术,达观数据可满足于准确适应不同场景的定制化需求。



📝


特与新:制定方法和准则

助力人工智能产业高质量发展

海量流程设计资源


人工智能的落地应用不是一蹴而就的事情,从理论到应用有很多的困难要克服。以自然语言处理为例,语义作为人类智慧的高度抽象和浓缩,让计算机去理解文字语义需要日积月累、精益求精的升级优化。


行业亟需新技术的诞生以及大量复合型人才——谁能迅速挖掘这些资源,则可能快速获取先一步开拓市场的机会。



今年年中,达观数据顺利举办第五届“达观杯”自然语言处理文本分类竞赛。“我们希望在自身快速发展的同时也能够为推动行业发展出一份力,通过举办这样的竞赛,我们有机会第一时间了解年轻团队的技术科研创新。”陈运文说。







但这并不意味着其他RPA公司可以复制此模式。“只有你拥有足够的能力,这个大赛足够有号召力,才能吸引众多人才汇聚进来,总之一切都需要用实力说话。我们目前拥有完全国产自研的人工智能技术,100余项国家发明专利和60余项软件著作权,包括2项国际专利(PCT)和60余项中国技术发明专利技术。”


 达观文档智能审阅系统


在人才、技术之外,人工智能行业的发展也需要一套特定治理方法和准则来凝聚优势资源,来助力其高质量发展。“这并非一家企业或者几家机构部门就能推动,它需要政府部门还有产业上下游企业一起携起手来。”陈运文说。


今年8月27日,上海市人工智能标准化技术委员会第一届第一次全体会议顺利召开,达观数据作为46位委员代表之一出席了本次会议。

此外,达观数据还参与了中国电子技术标准化研究院设立的国际标准IEEE《知识图谱架构》与《知识图谱选型与实施指南》的编制工作,助力国内建立起知识图谱技术和成果的发展规范。


“我们希望通过不断探索创新技术在实际场景中的落地应用,结合行业标准的研究与制定,能够为人工智能产业生态高质量发展贡献自己的一份力量。”陈运文说。



达观数据与张江的渊源已久,创始人陈运文本身是一名“盛斗士”——他曾在盛大文学任首席数据官。入职盛大,也让他和张江产生了连结,后来在创业时选址张江则是水到渠成。如今,陈运文正在张江这片热土上践行自己的梦想——用技术赋能文本。



而自2015年成立以来,达观数据一直专注于NLP、OCR、知识图谱等AI技术的研发,如今已迎来“收获期”:


● 达观数据曾凭借着语义分析技术获得中国智能科技最高奖——吴文俊人工智能科学技术奖;


● 达观数据智能办公机器人还入选了工信部2020年人工智能优秀产品和解决方案、上海市第二批创新产品推荐目录,并获中国建设银行、广州银行等金融数据智能专家推荐的优秀解决方案TOP10。


此次入选工信部第三批国家级专精特新“小巨人”企业更是“锦上添花”,激励着达观数据继续朝着既定的方向坚定前行。


往期推荐

张江“小巨人” | 韦翰斯生物:单基因检测如何“鼎力相助”优生优育?

2021-09-27

张江“小巨人”| 奥浦迈生物:在百亿级赛道致力解决“卡脖子”难题

2021-09-13

张江“小巨人” | 云迹科技:用AI和数据赋能服务机器人“破圈”

2021-09-06

张江“小巨人” | 高仙机器人:“这一块地就是我的世界”

2021-08-30



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存